Cea mai nouă tehnologie de la NVIDIA îți permite să-ți configurezi propria voce pe Alexa sau Google Assistant: cum faci asta

de: Ozana Mazilu
01 09. 2021

Vocile de pe Alexa Amazon, Google Assistant și alți asistenți AI sunt cu mult înaintea dispozitivelor GPS vechi, dar le lipsesc ritmul, intonația și alte calități care fac ca vorbirea să sune bine, umană. NVIDIA schimbă acest lucru acum.

NVIDIA a dezvăluit noi cercetări și instrumente care pot surprinde acele calități naturale ale vorbirii, permițându-ți să-ți instruiești sistemul AI cu propria voce, a anunțat compania la conferința Interspeech 2021.

NVIDIA te face propriul tău asistent vocal

Pentru a-și îmbunătăți sinteza vocală AI, echipa de cercetare text-to-speech a NVIDIA a dezvoltat un model numit RAD-TTS, pentru a crea cel mai realist avatar. Sistemul permite unei persoane să antreneze un model text-vorbire cu propria voce, inclusiv ritmul, tonalitatea, timbrul vocii și multe altele.

O altă caracteristică RAD-TTS este conversia vocală, care permite unui utilizator să transmită cuvintele unui vorbitor folosind vocea altei persoane. Această interfață oferă un control fin asupra tonului, duratei și intensității unei voci sintetizate.

Folosind această tehnologie, cercetătorii companiei de tehnologie au creat mai multe modele vocale cu sunete conversaționale, folosind voci sintetizate, mai degrabă decât voci umane. Rezultatele sunt încă puțin robotizate, dar mai bune decât orice narațiune AI pe care am auzit-o vreodată.

„Cu această interfață, producătorul nostru video ar putea să se înregistreze citind scenariul video și apoi să folosească modelul AI pentru a-și converti discursul în vocea naratorului feminin. Folosind această narațiune de bază, producătorul ar putea apoi să dirijeze modelul AI ca un actor vocal, ajustând vorbirea sintetizată pentru a sublinia cuvinte specifice și modificarea ritmului narațiunii, pentru a exprima mai bine tonul videoclipului”, a scris NVIDIA.

Compania distribuie o parte din această cercetare optimizată pentru a rula eficient pe GPU-urile NVIDIA, către oricine dorește să o încerce prin open source prin setul de instrumente NVIDIA NeMo Python.

„Mai multe dintre modele sunt instruite cu zeci de mii de ore de date audio pe sistemele NVIDIA DGX. Dezvoltatorii pot regla orice model pentru cazurile lor de utilizare, accelerând instruirea și utilizând calculul mixt de precizie pe GPU-urile NVIDIA Tensor Core”, a mai menționat compania.